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摘 要 : 为 了 满足 网 络 大 数据 背景 下 ， 大 数据 传播 的 数据 知识 高 精度 要 求 和 清除 劣质 数据 干扰 ， 基 于 粒度 可 变调 整 方 
案 提出 了 机 会 调度 的 网 络 大 数据 知识 扩充 算法 。 在 分 析 网 络 大 数据 特征 基础 上 ， 通 过 自 适应 向 量 编 码 ， 捕 捉 网 络 大 数 
据 的 异 构 特性 ， 采 用 多 阶 反 向 传播 将 异 构 网 络 大 数据 归 一 化 处 理 ， 再 通过 机 会 调度 实现 网 络 大 数据 实时 传输 。 同 时 ， 

基于 网 络 大 数据 组 成 的 知识 工程 系统 分 割 细 粒度 大 数据 ， 将 多 维特 征 进行 降 维 处 理 ， 使 得 知识 粒度 转变 为 已 知 ， 接 着 
调整 粒度 动态 特性 ， 使 得 知识 工程 的 大 数据 集 具 有 线性 特征 和 明确 的 几何 特性 ， 通 过 知识 扩充 提高 知识 获取 精度 。 实 
验 结果 通过 与 基于 细 粒 度 的 知识 获取 算法 进行 对 比 ， 证 明了 所 提 算 法 的 网 络 数据 传输 的 高 可 靠 性 、 实 时 性 和 知识 获取 
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Network big data knowledge extension algorithm based on variable granularity 
and opportunistic scheduling 
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Abstract: In order to meet the needs of the network under the background of big data, and eliminate inferior data interference 
data knowledge high precision requirements of large data transmission, variable size adjustment scheme based on the algorithm 
to expand the network of large data knowledge opportunistic scheduling is proposed. Based on the analysis of large data network 
characteristics, the adaptive vector encoding, capture the heterogeneous characteristics of large data network, using multi order 
back-propagation network of heterogeneous data is normalized, and then through the real-time transmission of large data network 
to achieve opportunistic scheduling. At the same time, the knowledge engineering system composed of network data 
segmentation of fine-grained big data based on the multidimensional feature dimension, the granularity of knowledge 
transformation is known, then adjust the size of the dynamic characteristics, making big data set of knowledge engineering with 
linear characteristics and clear geometric characteristics, improve the accuracy of knowledge acquisition through knowledge 
expansion. The experimental results are compared with the algorithm based on fine grained knowledge acquisition, which proves 
the high reliability, real time and high efficiency of network data transmission. 
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间 据 知识 结果 成 为 知识 工程 四 的 关键 问题 之 一 。 如 何 从 网 络 大 数 

引 吉 据 传播 加 的 知识 中 重建 数据 知识 库 ， 得 到 了 广泛 关注 。 
网 络 大 数据 固有 的 类 型 异 构 、 数 据 多 元 和 分 布 式 传播 等 特 网 络 大 数据 传播 方向 ,文献 [7] 所 提出 的 一 种 空间 结构 方案 
点 ( 急 , 使 得 如 何在 网 络 大 数据 背景 下 ， 确 保 大 数据 传播 的 数据 。” 通 过 将 符号 型 据 被 转换 为 值 型 ， 使 得 不 仅 有 效 保持 原 符号 型 特 


知识 精度 中 和 消除 劣 质数 据 外 和 干扰， 获取 有 效 解决 问题 的 大 数 。”” 征 而 且 重 造 了 样本 的 相似 度 。 文 献 [8] 的 优化 原型 系统 ， 
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录用 稿 
可 以 加 速 多 批量 数据 传输 服务 器 集群 ， 另 一 方面 能 够 最 好 地 利 


用 带宽 和 分 散 随机 线性 网 络 编码 的 最 大 有 用 的 信息 传播 。 文 献 
[9] 研 究 了 资源 受 限 的 移动 机 会 网 络 的 最 优 数 据 分 发 问题 , 解决 
了 移动 机 会 网 络 中 时 延 受 限 的 最 小 代价 组 播 问 题 。 
网 络 调度 方向 , 基于 随机 线性 网 络 编码 , 文献 [10] 提 出 了 一 
种 优先 级 调度 方案 ， 不 仅 可 以 利用 信息 包 接 收 状态 等 线性 关系 
反馈 信息 , 还 可 以 求解 中 继 节 点 的 有 效 信 息 规 模 。 文 献 [11] 研 究 
了 多 通道 无 线 链 路 之 间 的 节点 及 其 调度 方案 。 文 献 [12] 提 出 了 
一 个 完全 分 散 的 新 分 布 式 调度 策略 ， 使 得 每 个 节点 根据 其 流量 
需求 确定 要 调度 的 单元 数量 。 
知识 工程 方向 ， 文 献 [13] 通 过 研究 虚拟 地 理 环境 的 地 理 知 
识 特点 ,研究 了 虚拟 地 理 环境 的 地 理 知 识 的 分 类 及 其 工程 架构 。 
文献 [14] 提 出 了 跨 学 科 和 多 文化 的 方法 来 应 对 知识 社会 中 的 问 
题 和 挑战 。 文 献 [15] 研 究 了 一 个 知识 工程 框架 处 理 零散 的 知识 
建 模 和 多 信息 源 的 在 线 学 习 ， 对 零散 知识 的 非 线 性 融合 ， 和 自 
动 化 需求 驱动 的 知识 导航 。 
在 上 述 网 络 大 数据 传播 和 知识 挖掘 等 领域 的 研究 基础 上 ， 
结合 机 会 调度 的 网 络 大 数据 模型 ， 研 究 了 一 种 可 以 提高 网 络 大 
数据 传播 效率 和 数据 质量 的 知识 扩充 算法 。 


1 ”机 会 调度 的 网 络 大 数据 模型 


与 传统 的 网 络 数据 相 比 ， 网 络 大 数据 具有 
如 数据 类 型 复杂 且 蜡 构 、 数 据 结构 差异 性 、 数 据 挖掘 复杂 度 高 
和 网 络 调度 难度 大 等 。 针 对 上 述 网 络 大 数据 的 特征 ， 通 过 自 适 
应 向 量 编码 ， 捕 提 网 络 大 数据 的 异 构 特性 和 类 型 特征 ， 采 用 多 
阶 反 向 传播 统一 异 构 网 络 大 数据 ， 通 过 机 会 调度 网 络 大 数据 。 
首先 ， 将 网 络 大 数据 挖掘 对 象 从 一 维 向 量 组 转变 为 多 维 向 
量 编码 空间 ， 得 到 网 络 大 数据 异 构 特征 驱动 的 自 适应 多 维 向 量 
编码 模型 。 其 次 ， 基 于 大 数据 规模 和 维度 ， 激 励 网 络 大 数据 在 
多 维 向 量 编码 空间 的 异 构 特性 和 类 型 特征 的 捕捉 。 接 着 ， 提 出 
其 于 网 络 大 数据 挖掘 对 象 和 机 会 调度 的 多 阶 反 向 传播 算法 ， 
多 维 向 量 编码 空间 与 多 阶 反 向 传播 空间 有 机 融合 。 最 后 ， 在 
维 向 量 编码 空间 中 进行 特征 捕捉 与 多 阶 反 向 传播 ， 从 而 组 建 
了 机 会 调度 的 网 络 大 数据 模型 。 

设 一 个 m 维 有 限 域 欧式 空间 G”"， 任 意 一 维 的 向 量 空间 为 
Ai，al e A” ,a? e A”,…,a"”e A”。 定义 岛 ,A ,…,A” 的 多 维 
向 量 编码 空间 的 定义 如 下 : 


些 明显 特 征 候 


:= 


en 


运 


WR 


1 1 
[a ... 4 和 一 
外 Ui i /=1 


(1) 
m m m i 
i “a A A” > m 
L | ; a; 
/=l1 


在 G” 空 间 上 , 针对 A” 的 多 维 向 量 编码 空间 ， 网 络 大 数据 
异 构 特征 向 量 B 与 多 维 向 量 的 映射 关系 如 下 : 


i=1,j=1 
a =|B| +2.4lol O) 
i=1 
c=4.8= 电站 
i=1,j=1 


其 中 :b 表示 向 量 B 的 元 素 , j 表示 空间 上 的 向 量 维度 , c 表示 基 
于 向 量 B 驱动 ， 对 向 量 4 进行 向 量 编码 后 的 向 量 。 
适应 多 维 向 量 编码 形式 描述 如 式 (3) : 


闻 


Gg 4 |+ II 已 
1 一 1 7 
cf/ = 元 exp 人 -lo —b; 站 G3) 
cf 


其 中 :向 量 C. 为 多 维 向 量 空间 上 网 络 大 数据 的 编码 .变量 9 


表示 向 量 维度 偏 移 量 。 参 量 dy 表示 向 量 A 与 向 量 B 多 维 空间 
编码 后 之 间 的 差异 。 
适应 多 维 向 量 编码 后 的 网 络 大 数据 在 网 络 传播 过 程 中 
进行 如 式 〈4) 所 示 的 迭代 计算 。 


| A”, d c 
上 | 


Ts 


i=1, ,Mm 


区 


(4) 


其 中 : C。。 和 cy 表示 多 维 空间 编码 向 量 及 其 参量 的 网 络 传播 


的 迭代 变形 处 理 。 
为 了 提高 网 络 大 数据 的 传播 效率 ， 采 用 机 会 调度 ， 机 会 参 


量 可 由 式 (5) 计算 得 到 。 
m | . —b; dt 
im 一 1 2 (5) 


其 中 : -lm 表示 m 个 维度 上 每 个 维度 的 机 会 调度 权重 。 参 数 t 

表示 网 络 大 数据 传播 时 间 。 随 着 网 络 大 数据 编码 传播 的 过 程 ， 

其 于 多 维 空间 编码 差异 进行 网 络 大 数据 传播 的 机 会 调度 。 
综 上 所 述 ， 网 络 大 数据 的 多 阶 反 向 传播 的 主要 步骤 如 下 


a) 获 取 网 络 大 数据 的 多 维 空间 编码 及 其 参量 ， 得 到 Cao 


和 cy 。 
b) 对 多 维 空间 编码 向 量 及 其 参量 的 进行 网 络 传播 的 迭代 变 


形 处 理 ， 得 到 C，。 和 cy 。 
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9 对 于 每 一 维 空间 的 编码 参量 c, 求解 机 会 调度 权重 0;_1，, 。 


中 对 于 每 一 阶 网 络 大 数据 传播 ， 求 解 前 向 集合 严 " 和 反 向 
数据 集合 R" 。 
昌 计 算 向 量 A 与 向 量 B 的 多 维 空间 编码 后 之 间 的 差异 wy 。 


有 计算 ”和 R” 的 残 差 ， 修 正 反 向 网 络 大 数据 集合 R” 。 


机 会 调度 的 网 络 大 数据 的 多 阶 反 向 传播 算法 描述 如 下 : 


输入 : m, Ai 
输出 : R” 


for i=1, 1++, i<=m 


m 
7 
for j=1, j++, j<=m 
BB}*Bj; 
obtain 人 and c; ; 
for i=1, 1++, i<=m 
[Ei 
C 一 C Da m 
Ds da ? 
Ts 
i=1,…,m 
m 
之 局 = 
有 
cy cy 1=1,7=: 
27 
for i=1, 1++, i<=m 
m [er —b; (at 
ee 
temp= Sl Ca a 
Ci =temp/m; 


computing the 五 "and R”; 
amending the R” with F™; 


return R” . 


2 ”可 变 粒 度 的 知识 扩充 算法 


基于 网 络 大 数据 组 成 的 知识 工程 系统 定义 为 三 元 组 K=<R,， 
E, AR>, 其 中 R 表示 网 络 大 数据 集 ; E 表 知 识 描述 对 象 ; AR 表 
示 大 数据 集 所 有 元 素 的 知识 属性 集 。 对于, Var e AR, Ve ekE， 
定义 线性 关系 属性 映射 ar :e 一 工 ， 其 中 Ti 表示 网 络 大 数据 全 


ll 


tat 


7 


R 的 任 一 元 素 + 的 知识 属性 映射 关系 , 形 如 R(e) c AR(r) 。 因 
此 ， 一 个 粗糙 的 知识 工程 系统 可 定义 为 


KR=(R,ENAR(r),ARU4)， 其 中 入 表示 粒度 粗粮 权重 。 


假设 K 是 一 个 多 粒度 粗糙 知识 工程 系统 ，R，E 和 AR 之 
间 存 在 模糊 粗糙 映射 关系 , 且 了 及 与 已 之 间 的 元 素 映 射 存在 多 对 


Re 
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多 现象 ， 即 he R1IE 且 hevVarc AR。 于 是 ，K 中 的 细 粒 度 
精确 知识 集合 天 与 粗糙 知识 工程 系统 KR 的 细 粒 度 知识 集合 


KR(4 <4) ， 存 在 如 式 (6) 所 示 的 关系 。 


R=|reR: lean) Nr A)NK| (6) 
rr 


其 中 : 4 表示 粗糙 集 的 细 粒 度 阔 值 。 

在 网 络 大 数据 知识 工程 系统 中 ， 知 识 粒 度 在 大 数据 网 络 传 
输 的 多 维 向 量 空间 中 具有 多 维特 征 ， 该 特征 使 得 知识 粒度 具有 
未 知性 和 动态 特性 。 为 了 寻求 细 粒 度 大 数据 ， 以 便 将 多 维特 征 
进行 降 维 处 理 ， 使 得 知识 粒度 转变 为 已 知 ， 且 调整 动态 特性 ， 
使 得 知识 工程 的 大 数据 集 具 有 线性 特征 和 明确 的 几何 特性 ， 提 
高 知识 挖掘 精度 和 知识 处 理 目标 的 唯一 定义 。 对 于 ， 粗 粒度 多 
住 大 数据 ， 通 过 调整 粒度 特征 和 降 维 处 理 ， 降 未 知性 进行 线性 
描述 ， 隐 藏 未 知 大 数据 的 多 维 空间 几何 特性 。 多 维 向 量 空间 与 
细 粒 度 知识 几何 特征 空间 之 间 的 对 应 关系 详 见 图 1， 知 识 工程 
的 三 元 组 降 维 至 二 元 组 ， 将 未 知 因素 进行 了 确定 性 转换 和 几何 


ATS 


图 1 多 维 空间 与 几何 特征 空间 的 对 应 


姑 此 ， 对 于 知识 工程 系统 KK， 基 于 可 变 粒度 给 出 网 络 大 数 
据 知识 的 参数 和 属性 描述 : 


F=f (7,E,AR),reR”,f:R” >V” 
E,AR)NM(r,4) (7) 
rst 


f(AR)-( 


其 中 ，f :R” 一 V” 表示 从 原始 多 维 向 量 空间 RW 到 可 变 力 度 
特征 空间 V™ 的 降 维 映射 。 
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可 变 粒度 转换 可 以 通过 方程 p=(r*sinate*cosB)flr, e,ar) 进 行 
解析 完成 ， 其 中 p 表示 可 变 粒 度 ，a 表示 任 一 大 数据 大 数据 元 
素 r 的 多 维 向 量 空间 水 平 交 又 弧 度 , B 表示 任 一 知识 描述 对 象 e 
在 空间 降 维 过 程 中 产生 的 垂直 交叉 弧度 。 因 此 ， 可 变 粒度 与 网 
络 大 数据 知识 工程 的 迭代 关系 如 式 〈8) 所 示 。 


(no)lp=f (nea) {(ne)eR") 


| 


> 


降 维 后 知识 平面 上 的 数据 点 经 过 粒度 可 变 转 换 后 ， 多 维 空 
间 的 知识 集 全 部 转 入 细 粒 度 几何 特征 空间 。 该 空间 内 的 数据 知 
识 具 备 了 确定 关系 和 线性 特征 。 此 时 ， 网 络 大 数据 知识 工程 系 
统 KR 有 效 解决 了 粗 粒 度 的 不 规则 几何 空间 对 知识 挖掘 的 干扰 
和 粒度 的 动态 变化 对 知识 空间 的 影响 。 图 2 给 出 了 网 络 大 数据 
知识 获取 中 的 粒度 调度 方案 ， 以 4 为 阔 值 分 割 粗 粒度 集 和 细 粒 
度 集 。 细 粒度 直接 进入 获取 结果 ， 粗 粒度 通过 可 变 粒度 调度 ， 
消除 未 知性 和 不 规则 性 ， 转 换 为 细 粒 度 。 


细 粒 度 


粗 粒度 


一 细 粒 度 


图 2 基于 可 变 粒 度 的 知识 获取 模型 


经 过 图 2 的 可 变 粒 度 调 度 后 ， 网 络 大 数据 知识 工程 在 4 的 
细 粒 度 分 割 后 ， 通 过 式 〈9) 进行 知识 扩充 。 
> rr+4(sinaw+cosD) 
A 全 


al 
1 
0 = arctan = (9) 


PB = arctan 中 -4 


3 ”实验 结果 分 析 


对 基于 可 变 粒度 机 会 调度 的 网 络 大 数据 知识 扩充 算法 记 为 
NKE-VOS 进行 性 能 分 析 与 验证 。 实验 中 , 主要 分 析 了 网 络 调度 
后 数据 误差 、 数 据 传输 延迟 、 知 识 获取 的 收敛 次 数 等 性 能 。 在 
相同 实验 环境 下 ， 所 提 算 法 的 上 述 性 能 与 基于 细 粒 度 的 知识 获 
取 算法 记 为 FGKA 进行 了 对 比 。 所 采用 的 实验 平台 如 表 1 所 述 。 


ep 


黄金 国 ， 等 
表 1 实验 平台 
参数 取 值 

网 络 终端 数 50 个 

网 络 服务 器 数 5 个 

服务 器 CPU Intel Xeon E3 v2 
服务 器 硬盘 空间 2 TB 

无 线 通 信 协 议 IEEE 802.11g 
服务 器 操作 系统 ”Ubuntu Server 16.04.2 LTS 
算法 开发 语言 Java 

实验 时 间 50 min 
网 络 终端 存储 空间 4GB 


图 3 给 出 了 逐步 激活 网 络 终端 后 ， 随 着 网 络 大 数据 量 的 增 


加 ， 两 种 算法 所 采 | 


两 种 算法 在 


对 ， 得 到 数 # 


的 机 会 调度 ， 


的 网 络 调度 算法 在 数 和 


昌 精 度 方面 的 表现 。 


50 min 内 调度 传输 的 大 数据 分 别 与 原 数据 进行 比 


将 网 络 大 数据 挖 


向 量 编码 空间 ， 基 于 大 数 和 
维 向 量 编码 空间 的 异 构 特 性 和 类 型 特征 的 所 


络 调度 ， 有 助 于 提高 数据 精度 。 


居 误 差 。 对 比 发 现 ，FGKA 算法 的 所 采 ) 
度 ， 对 与 大 数据 的 规模 变化 反映 人 迟缓 ， 导 致 数据 丢失 或 出 错 ， 
严重 制约 了 数据 质量 。 反 之 ， 所 设计 


F 的 NKE-VOS 算法 所 采用 


的 静态 调 


加 对 象 从 一 维 向 量 组 转变 为 多 维 
昌 规 模 和 维度 ， 激 励 网 络 大 数据 在 多 
捉 ， 实 现 高 效率 网 


2- 
一 FGKA 
~ NKE-VOS 
本 5 
昌 ， 
巾 
流 
0.5 
J ”i 
10 20 30 40 50 
网 络 终端 数 /个 
图 3 数据 误差 
图 4 给 出 了 随 着 网 络 大 数据 量 的 增加 ， 两 种 算法 在 网 络 传 
输 实 时 性 方面 的 表现 。 分 别 统 计 了 50 分 钟 内 两 种 算法 传输 的 


大 数据 的 端 到 


端 延迟 ,并 求 


VOS 算法 通过 获取 网 络 大 数据 的 多 维 空间 编码 及 


均值 。 对 比 发 现 , 所 提出 的 NKE- 


其 参量 ， 接 着 


对 每 一 维 空间 的 编码 参量 进行 机 会 调度 ， 对 于 每 一 阶 网 络 大 数 


据 传播 ， 


障 实时 性 。 


图 5 给 出 了 随 着 网 络 月 
取 所 需要 的 迭代 次 数 。 所 提 NKE-VOS 算法 将 粗 粒 度 多 维 大 数 


求解 前 向 集合 和 反 向 数 提 
大 数据 的 多 阶 反 向 传播 算法 ， 从 而 缩短 网 络 数 扩 


据 进行 粒度 可 变调 度 ， 同 时 降 
除 未 知 大 数据 ， 重 构 多 维 


代 过 程 中 获 


R 务 器 的 增加 ， 丙 


让， 明确 未 和 
L 何 特性 ， 月 


空间 刀 


[性 的 线性 


居 集 合 ， 采 用 机 会 调度 的 网 络 
昌 传 输 延 迟 ， 保 


种 算法 完成 知识 获 


述 ， 消 


区 知识 ， 从 而 扩充 网 络 大 数据 知识 。 


以 可 以 在 较 少 的 迭 
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取 效 率 提 出 了 更 
于 网 络 大 数据 的 基 
充 算法 。 
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图 5 收敛 次 数 

] 对 数 提 


[ 
上 
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首先 ， 


自 适应 多 维 向 量 编码 ， 


昌 传 播 的 实时 性 、 数 据 精度 和 知识 获 
高 要 求 ， 为 了 满足 」 
于 可 变 粒 度 和 机 会 调度 的 网 络 大 数据 知识 扩 
该 算法 从 网 络 大 数据 异 构 特征 
向 量 空间 ， 实 时 捕捉 异 构 特 性 ， 通 过 


过 多 阶 反 向 传播 和 机 会 调 


度 ， 保 障 网 络 大 数据 传输 的 实时 性 和 


El 


直 性 。 其 次 ， 将 网 络 大 数据 的 知识 工程 系统 按照 粒度 可 变 阔 


值 进行 多 


粒度 分 制 ， 通 过 


多 维特 征 的 降 维 ， 


知性 和 动态 几何 特征 的 明确 ， 采 | 
算 


所 提 算 法 与 基于 4 


实现 知识 粒度 的 已 
3 了 基于 可 变 粒度 的 知识 扩充 
粒度 的 知识 获取 算法 在 数据 误差 、 数 
据 传 输 延 迟 、 知 识 获 取 的 收敛 次 数 等 性 能 的 对 比 实验 ， 结 果 
提 算 法 在 网 络 大 数据 传输 可 靠 性 、 实 时 性 
方面 具有 明显 优势 。 


和 知识 获取 效率 
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